多尺度功能已被证明在对象检测方面非常有效,大多数基于Convnet的对象检测器采用特征金字塔网络(FPN)作为利用多尺度功能的基本组件。但是,对于最近提出的基于变压器的对象探测器,直接结合多尺度功能会导致由于处理高分辨率特征的注意机制的高复杂性,因此导致了高度的计算开销。本文介绍了迭代多尺度特征聚合(IMFA) - 一种通用范式,可有效利用基于变压器的对象检测器中的多尺度特征。核心想法是从仅几个关键位置利用稀疏的多尺度特征,并且通过两种新颖的设计实现了稀疏的特征。首先,IMFA重新安排变压器编码器数据管道,因此可以根据检测预测进行迭代更新编码的功能。其次,在先前检测预测的指导下,IMFA稀疏的量表自适应特征可从几个关键点位置进行精制检测。结果,采样的多尺度特征稀疏,但仍然对对象检测非常有益。广泛的实验表明,提出的IMFA在略有计算开销的情况下显着提高了基于变压器的对象检测器的性能。项目页面:https://github.com/zhanggongjie/imfa。
translated by 谷歌翻译
最近,在大型缩放因素下,单图像超分辨率(SR)通过将预训练的生成对抗网络(GAN)作为先验,见证了令人印象深刻的进步。但是,大多数基于GAN的SR方法受到倒置潜在代码中的属性分离问题的约束,该属性直接导致发电机层中的视觉属性不匹配并进一步退化重建。此外,将馈送给发电机的随机噪声用于无条件的细节生成,这往往会产生不忠的细节,从而损害了生成的SR图像的忠诚度。我们设计了Laren,这是一种潜在的多关系推理技术,可以通过潜在空间中的基于图的多关系推理来实现出色的大型SR。 Laren由两种创新设计组成。第一个是基于图的分离,该解散通过层次多相关推理构建了较高的分离潜在空间。第二个是基于图形的代码生成,该代码生成通过递归关系推理逐渐生成特定于图像的代码,这使先前的gans能够生成理想的图像详细信息。广泛的实验表明,Laren实现了优越的大型图像SR,并且在多个基准测试中始终如一地超过最先进的方法。
translated by 谷歌翻译
最近提出的检测变压器(DETR)已建立了一个完全端到端的范式以进行对象检测。但是,DETR遭受慢训练的融合,这阻碍了其对各种检测任务的适用性。我们观察到,由于对象查询和编码图像特征之间的语义不一致,DETR的缓慢收敛在很大程度上归因于将对象查询与相关区域匹配的困难。通过此观察,我们设计了与DETR ++(SAM-DETR ++)设计的语义对齐匹配,以加速DETR的收敛并改善检测性能。 SAM-DETR ++的核心是一个插件模块,该模块将对象查询和编码图像功能投射到相同的功能嵌入空间中,在该空间中,每个对象查询都可以轻松地与具有相似语义的相关区域匹配。此外,SAM-DETR ++搜索了多个代表性关键点,并利用其功能以具有增强的表示能力的语义对齐匹配。此外,SAM-DETR ++可以根据设计的语义对准匹配,以粗到5的方式有效地融合多尺度特征。广泛的实验表明,所提出的SAM-DETR ++实现了优越的收敛速度和竞争性检测准确性。此外,作为一种插件方法,SAM-DETR ++可以以更好的性能补充现有的DITR收敛解决方案,仅使用12个训练时代获得44.8%的AP和49.1%的AP,并使用Resnet-50上的CoCo Val2017上的50个训练时代获得50个训练时期。代码可在https://github.com/zhanggongjie/sam-detr上找到。
translated by 谷歌翻译
深层生成模型在逼真的图像合成中取得了显着的进展,并具有多种有条件的输入,而生成多样化但高保真的图像仍然是有条件图像生成的巨大挑战。本文介绍了有条件图像生成的多功能框架,其中包含了CNN的电感偏置和自动回归的强大序列建模,自然会导致图像生成多样化。我们没有像在先前的研究中独立量化多个域的特征,而是设计了一个具有变异正常化程序的集成量化方案,该方案将特征离散化在多个域中,并显着提高了自动回归建模性能。值得注意的是,变异正常器使通过惩罚分布的内域变化来使特征分布在无与伦比的潜在空间中进行正规化。此外,我们设计了一种牙龈样本策略,该策略允许将分配不确定性纳入自动回归训练程序中。牙胶采样大大减轻了暴露偏见,通常会在训练和推理阶段造成未对准并严重损害推理性能。对多条条件图像生成任务进行的广泛实验表明,与最先进的方法相比,我们的方法在定性和定量上实现了卓越的图像生成性能。
translated by 谷歌翻译
利用Stylegan的表现力及其分离的潜在代码,现有方法可以实现对不同视觉属性的现实编辑,例如年龄和面部图像的性别。出现了一个有趣而又具有挑战性的问题:生成模型能否针对他们博学的先验进行反事实编辑?由于自然数据集中缺乏反事实样本,我们以文本驱动的方式研究了这个问题,并具有对比语言图像预言(剪辑),这些(剪辑)甚至可以为各种反事实概念提供丰富的语义知识。与内域操作不同,反事实操作需要更全面地剥削夹包含的语义知识,以及对编辑方向的更微妙的处理,以避免被卡在局部最低或不需要的编辑中。为此,我们设计了一种新颖的对比损失,该损失利用了预定义的夹子空间方向,从不同的角度将编辑指向所需的方向。此外,我们设计了一个简单而有效的方案,该方案将(目标文本)明确映射到潜在空间,并将其与潜在代码融合在一起,以进行有效的潜在代码优化和准确的编辑。广泛的实验表明,我们的设计在乘坐各种反事实概念的目标文本驾驶时,可以实现准确,现实的编辑。
translated by 谷歌翻译
神经辐射场(NERF)通过从多视图2D图像中隐式建模3D表示,在新型视图合成中表现出非常令人印象深刻的性能。但是,大多数现有的研究都使用合理的相机姿势初始化或手动制作的摄像头分布来训练NERF模型,这些分布通常不可用或在各种真实世界中很难获取。我们设计了VMRF,这是一种匹配NERF的创新视图,可以进行有效的NERF培训,而无需在相机姿势或相机姿势分布中进行先验知识。 VMRF引入了视图匹配方案,该方案利用了不平衡的最佳传输来制定功能传输计划,以映射带有随机初始化的摄像头姿势的渲染图像,以映射到相应的真实图像。通过功能传输计划作为指导,设计了一种新颖的姿势校准技术,可以通过预测两对渲染图像和真实图像之间的相对姿势转换来纠正最初的随机摄像头姿势。对许多合成数据集进行的广泛实验表明,所提出的VMRF的性能优于最先进的质量和定量,这是大幅度的。
translated by 谷歌翻译
随着野火产生的大气气溶胶减少了向地球的传入太阳辐射,越来越频繁的野火会显着影响太阳能的产生。通过气溶胶光学深度(AOD)测量大气气溶胶,可以通过地球静止卫星检索和监测AOD数据流。但是,多源遥感数据流通常具有异质特征,包括不同的数据缺失率,测量误差,系统偏见等。为了准确估计和预测潜在的AOD传播过程,存在实践需求和理论利益,以提出一种通过同时利用或融合多种源的异质卫星远程远程远程灵感数据来建模物理信息的统计方法。提出的方法利用光谱方法将多源卫星数据流与控制AOD传播过程的基本对流扩散方程相结合。统计模型中包括一个偏差校正过程,以说明物理模型的偏差和傅立叶系列的截断误差。提出的方法适用于从国家海洋和大气管理局获得的加利福尼亚野火AOD数据流。提供了全面的数值示例,以证明所提出方法的预测能力和模型解释性。计算机代码已在GitHub上提供。
translated by 谷歌翻译
随着信息中的各种方式存在于现实世界中的各种方式,多式联信息之间的有效互动和融合在计算机视觉和深度学习研究中的多模式数据的创造和感知中起着关键作用。通过卓越的功率,在多式联运信息中建模互动,多式联运图像合成和编辑近年来已成为一个热门研究主题。与传统的视觉指导不同,提供明确的线索,多式联路指南在图像合成和编辑方面提供直观和灵活的手段。另一方面,该领域也面临着具有固有的模态差距的特征的几个挑战,高分辨率图像的合成,忠实的评估度量等。在本调查中,我们全面地阐述了最近多式联运图像综合的进展根据数据模型和模型架构编辑和制定分类。我们从图像合成和编辑中的不同类型的引导方式开始介绍。然后,我们描述了多模式图像综合和编辑方法,其具有详细的框架,包括生成的对抗网络(GAN),GaN反转,变压器和其他方法,例如NERF和扩散模型。其次是在多模式图像合成和编辑中广泛采用的基准数据集和相应的评估度量的综合描述,以及分析各个优点和限制的不同合成方法的详细比较。最后,我们为目前的研究挑战和未来的研究方向提供了深入了解。与本调查相关的项目可在HTTPS://github.com/fnzhan/mise上获得
translated by 谷歌翻译
生成的对抗网络(GAN)在图像翻译和操纵方面取得了巨大成功。但是,具有忠实风格控制的高保真形象生成仍然是计算机视觉中的巨大挑战。本文提出了一种多功能的图像翻译和操纵框架,该框架通过明确构建信件来实现图像生成中准确的语义和样式指导。为了处理通过构建密集的对应关系产生的二次复杂性,我们引入了双层功能对齐策略,该策略采用顶部$ k $操作来对块构成块的功能进行排名,然后在块功能之间进行密集的关注,从而降低了内存成本的降低。由于顶部$ k $操作涉及索引交换,从而排除了梯度传播,因此我们近似具有正则地球搬运工问题的非差异上的顶部$ K $操作,以便可以有效地向后传播其梯度。此外,我们设计了一个新颖的语义位置编码机制,该机制为每个单个语义区域建立坐标,以在建立对应关系时保持纹理结构。此外,我们设计了一种新颖的置信度注入模块,该模块通过根据内置对应关系的可靠性适应特征来减轻不匹配问题。广泛的实验表明,与最先进的方法相比,我们的方法在定性和定量上取得了出色的性能。
translated by 谷歌翻译
推断从单个图像的场景照明是计算机视觉和计算机图形中的必不可少的且挑战性的任务。通过回归代表照明参数或直接生成照明映射来估计照明。然而,这些方法通常遭受差的准确性和泛化。本文介绍了几何移动器的光(GMLight),一种采用回归网络和用于有效照明估计的生成投影仪的照明估计框架。我们根据几何光分布,光强度,环境术语和辅助深度参数化照明场景,这可以由回归网络估计。灵感来自地球移动器的距离,我们设计了一种新颖的几何动力损失,以指导光分布参数的准确回归。利用估计的光参数,生成投影机用现实的外观和高频细节合成全景照明图。广泛的实验表明,GALLIVEVES实现了准确的照明估计和卓越的保真度,在欣赏3D对象插入时。该代码可在\ href {https://github.com/fnzhan/illumination- istimation} {https://github.com/fnzhan/illumination-istimation}。
translated by 谷歌翻译